import pandas as pd

def analyze_fields(file_path):
    """分析Excel文件中的字段信息"""
    df = pd.read_excel(file_path)
    
    print("=== 字段分析报告 ===\n")
    print(f"文件包含 {len(df.columns)} 个字段:\n")
    
    # 输出字段基本信息
    for col in df.columns:
        dtype = str(df[col].dtype)
        unique_count = df[col].nunique()
        sample_value = df[col].iloc[0] if len(df) > 0 else "N/A"
        
        print(f"字段名称: {col}")
        print(f"数据类型: {dtype}")
        print(f"唯一值数量: {unique_count}")
        print(f"示例值: {sample_value}")
        print("-" * 50)
    
    # 输出字段描述建议
    print("\n=== 字段描述建议 ===\n")
    print("1. policy_id: 保单唯一标识符")
    print("2. age: 投保人年龄")
    print("3. gender: 投保人性别")
    print("4. income_level: 收入水平(低/中/高)")
    print("5. education_level: 教育程度")
    print("6. marital_status: 婚姻状况")
    print("7. family_members: 家庭成员数量")
    print("8. occupation: 职业")
    print("9. birth_region: 出生地区")
    print("10. insurance_region: 投保地区")
    print("11. policy_type: 保险类型")
    print("12. policy_term: 保险期限(年)")
    print("13. policy_start_date: 保险开始日期")
    print("14. policy_end_date: 保险结束日期")
    print("15. premium_amount: 保费金额")
    print("16. sum_insured: 保额")
    print("17. claim_history: 理赔历史(是/否)")
    print("18. renewal: 是否续保(Yes/No)")

if __name__ == "__main__":
    file_path = "data/policy_data.xlsx"
    analyze_fields(file_path)